临床研究讲座:流行病学数据分析基础(6/6):如何利用临床常规数据进行研究?
第一节 概述
第二节 流行病学专题研究数据的分析
第三节 队列研究数据分析实例
第四节 常规收集的流行病学数据的分析
一、常规数据的特征二、形成研究问题三、常规数据“研究设计”的缺陷四、估计相应的指标五、评估数据中的偏倚六、常规数据的利用
第五节 本文总结
由于常规数据分析是利用为其他目的收集的数据来回答一些新的问题,而且常规数据不是为了某特定的研究问题收集的,又不可能用来回答所有种类的问题,因此利用常规数据之前,应首先了解数据的特征,确定利用现有资料可能回答的问题。数据的时间特征和含有的变量特征是确定可能研究的问题的基础。
时间框架指数据的时间特征,主要可分为有随访的数据和无随访的数据。随访就是在一个时间段内对研究对象进行访问和检查,目的在于收集此期间新的结局事件的发生情况。有随访的数据可称为队列数据,类似队列研究的数据。无随访的数据属于现况数据,即所有的数据都是在一个时间点上(或一个很短的时间段内)收集的,这个时间点不一定是日历意义上的时点,也可以是以某个事件为标志的时间点,如入院日期、确诊日期、治疗开始日期、进入研究的日期等。所有队列数据都应包括现况数据和随访数据两个部分,即在建立队列开始时收集的基线(暴露或原因)数据属于现况数据,以及在随访期间收集的(结局或结果)数据属于随访数据。
队列数据可用于大多数临床问题的探索,但现况数据则主要可用于以下三类问题的探索:病人的现况、服务状况和诊断准确性,偶尔可用于初步探索病因、疗效和不良反应。有关病人和服务现状的问题,如,在某高血压门诊就诊病人的资料里,有多少高血压病人目前正在接受抗高血压药物治疗,有多少应该采取药物降压的病人没有采取治疗,他们使用的主要药物品种是什么,费用如何?
值得注意的是,不是所有在时间上长期或连续收集的数据都是队列数据。比如,某医院收集了过去5年内所有病人入院时的信息,但并没有记录入院后的事情,这样的数据只是多个时间点现况数据的集合,没有随访数据,因此不是队列数据。队列数据和现况数据的主要区别是:不同时间点或时间段检查的是否同一批人,队列数据要求必须是同一批人。
(二)变量的特征和分类
按照临床问题中变量的类型可以将常规数据中的变量分为:治疗措施、检查结果、诊断结论、病因和危险因素、预后因素、疾病结局,以及与服务相关的因素(如药价和医疗保险)等。没有随访的数据属于现况数据。有什么样的变量信息,才能回答什么样的临床问题。比如,如果数据中没有治疗有关的信息,则无法研究治疗效果和副作用;如果没有检查和诊断结果,则无从研究诊断的准确性;结局是关于因变量的信息,若没有结局信息,则不能研究治疗效果、预后因素、危险因素和治疗的不良反映。
二、形成研究问题
根据数据的时间和变量特征,可以初步缩窄可研究的问题的范围。如前所述,可能的研究范围不外乎病因、预后、诊断、疗效、不良反应、服务现状等。进一步需要做的是,分析具体的变量和它们之间的关系,进一步确定对哪些变量单独的总结以及对哪些变量间的关系的探索具有重要的理论和实践意义。
在一组数据里,可能总结的变量和探索的关系有很多,对研究者最大的挑战不是如何进行分析,而是形成各种可能的研究问题以及对它们的重要性的评估,评估一个问题的重要性需要的不是流行病学知识,也不是统计学知识,而是某一个领域的专业知识,再高明的流行病学家也不可能知道所有临床领域的知识盲区和研究热点。
如何才能形成研究问题呢?对现况的总结可能是最简单的研究问题。比如,在上述某高血压门诊病人的资料里,对病人使用的主要药品种类的单因素的现况总结,可能就是一个重要的信息。研究显示,传统的利尿剂类的降压药和新的昂贵的降压药在预防心血管事件上没有明显的区别。那么,如果绝大多数病人使用的都是昂贵的新药,可能是不合理的。
欲进行诊断准确性研究,数据库里必须至少有一部分人同时具有某检查的结果和有关疾病的诊断结论的信息。这样,就可以按照检查和诊断将病人分为四组,计算检查方法的灵敏度和特异度指标。欲研究副作用,基线资料中必须有治疗的信息,随访资料中须有可能的副作用的信息;欲评估疗效,基线资料中须有治疗的信息,随访资料中须有有关结局的信息;欲研究危险因素,基线资料中须有可疑危险因素的信息,随访资料中须有有关疾病的信息。
三、常规数据“研究设计”的缺陷
针对拟定的研究问题,可以确定其最佳可行的研究设计。最佳可行的研究设计就是适合研究此类问题的最严谨的可行的研究设计。常用的设计包括现况研究、病例对照研究、前瞻性研究、非随机分组的对照试验,以及随机对照试验。常见临床问题的最佳可行的研究设计见框4。
确定最佳可行研究设计的目的在于评估现有数据的适用性和局限性,以及帮助确定下一步需要进行的数据分析。通过比较常规数据的“设计框架”和最佳可行的研究设计,可以发现常规数据的设计缺陷,从而判断其可能引起的偏倚。
研究设计最重要的三个因素是时间、人群和变量,不同的研究其实就是在不同时间点收集了关于不同人群的不同的变量信息,或者是三个因素相互联系构成的特殊的研究框架。时间因素包括是时间点还是时间段?以什么事件定义的起始时间,研究的时间走向(前瞻还是回顾?),以及变量间谁前谁后的时间关系?人群因素包括人群的特征,选择的过程,以及比较组的形成;变量因素包括测量的是什么,何时进行的测量,以及测量的准确性。
在时间、人群和变量特征上与最佳可行设计的差异,就是利用常规数据进行一项具体研究时的缺陷所在,就是偏倚可能出现的地方。比如,评估治疗效果的最佳可行研究设计是随机对照试验,该设计需要选择代表某类病人的一组病人,随机分配到两个比较组,一组给予试验治疗,一组给予对照治疗,然后随访观察一段足够的时间,并在此期间收集每个病人有关结局的信息,而且收集的信息一定要准确。一个常规收集的数据库,能否满意地回答有关治疗的问题,主要取决于现有数据在多大程度上符合一个随机对照试验设计的要求,即可满足随机对照试验设计要求的程度。
比如,欲利用某临床科室收集的所有住院的某种病人入院时和入院期间的有关信息,评估一项治疗的效果。首先,住院病人中须有一部分人接受了该治疗,一部分没有接受该治疗,必须具有每个病人的住院和出院时间(依此可计算观察时间)和出院前对有关结局的测量结果。这些信息缺一不可。由于病人的分组不是随机形成的,最好在入院时同时收集了其他影响疾病转归的因素,分析时可以采取措施控制它们的混杂作用。即使符合了所有这些要求,这样的研究最好也只是一个非随机分组的对照研究,与观察性的队列研究没有本质区别。
四、估计相应的指标
根据研究的目的以及最佳可行的研究设计,就能够确定需要估计的指标。现况研究里,只需要估计有关变量的平均数或百分数。若是评估治疗效果,主要是估计治疗对结局作用的大小,即效应测量指标;若是评估诊断的准确性,主要是估计灵敏度和特异度;若是研究副作用,主要是估计治疗对不良结局作用大小的效应值。必要时,可以根据基线资料里其他因素的信息,进而确定是否需要其他的分析,如控制混杂和交互作用分析。以前瞻性研究为例,常规数据的分析目的、策略和方法,与特定研究的数据分析相同,具体细节请参见本系列讲座第2部分或文尾的往期推荐。
然而,与特定研究的数据分析不同的是,常规数据分析首先需要确定研究问题,最后还需要对研究框架和偏倚进行充分的评估(详见框5)。常规数据在人群的选择、变量的测量和混杂控制方面都可能存在问题,需要全面的评估,以确定结果的真实性。
五、评估数据中的偏倚
流行病学研究中的偏倚分为三类:选择偏倚、信息偏倚和混杂偏倚。偏倚将造成研究结果上的误差。选择偏倚是由于征募、入选、随访病人的方法不当以及退出和剔除引起的偏倚;信息偏倚是由于收集变量信息的方法不准确和不一致引起的偏倚;混杂偏倚是由于比较组间在其他影响结果的因素上的不可比而造成的偏倚。框6列举了利用常规数据进行研究时应检查的关于偏倚的问题。
在利用常规数据进行研究时,选择偏倚是普遍现象。首先,很多数据的代表性很偏或总体根本不明。比如,北京某三甲医院的病人来自全国各地,且源于不同地区的病人的比例也不同,因此很难确定其代表的地区人群是什么。另外,病人的选择程序很难确定,因此难以判断该医院病人代表了同类病人中的哪些亚群。由此意义上讲,地区医院、社区医院和社区门诊病人的总体人群的清晰程度和代表性一般会好于全国性的三甲医院。
由于检验检查的选择性,具有研究相关信息的病人又经过了检验检查的进一步选择。比如,同为北京某三甲医院的同一种病人,不同病人接受的检验和检查可能不同,接受检查和未接受检查的病人存在差异,具有研究有关检查信息的病人不能代表该医院所有患有某病的病人。
医疗机构病人最严重的选择偏倚莫过于选择性随访和失访。如果病人不自动回访,医院没有义务,也没有可靠的机制和充足的资源对所有病人进行随访,因此有随访资料的病人是一个经过再次高度选择的群体。另外,在访的病人可能随时中断随访,造成失访。而且,如果需要的随访时间很长,最后具有结局信息的病人往往是极少数,而且在访病人与无访和失访病人的区别也无法判断。因此,大多数有关病人缺乏结局资料,可能是利用医院常规数据进行研究所面临的最大问题之一。
此外,由于各种原因,有些病人的资料可能丢失了,有些可能没有输入计算机,有些可能质量太差不能利用。最后某医院某种病人中具有有关基线信息又有结局信息的病人是一经过高度选择的人群,而且每一步选择的程序经常是不明的,很难判断可能造成的偏倚的大小和方向。总之,医院常规数据的代表人群很不明确,而且经常存在严重的不可预测的选择偏倚。
另外,为了其他研究目的选择的病人,可能不适用于目前的研究目的。如,临床试验选用的往往是最适合某治疗的病人,经过了高度选择,而关于预后的研究则需要所有使用过该药物的病人,尤其是那些可能出问题的病人,因此有些高度选择的临床试验的病人可能不适合研究预后。
(二)评估数据中的信息偏倚
变量信息的不准确性、不可靠性,测量在时间上的不统一性,以及暴露组和非暴露组之间测量的不一致性,将引起信息偏倚。临床常规数据的准确性和可靠性有高有低,取决于收集数据的医疗机构水平的高低,我国三甲医院具有很好的检验检查设备,有一流的技术人员,因此收集的资料的准确性和可靠性可能符合甚至高于研究需要的标准。但是,边远地区的医院、社区医院、社区门诊等收集的信息的质量可能低于研究需要的标准。
临床常规数据中另一个常见问题是数据质量在时间上(因此造成在不同病人上)的不一致性。不一致的原因有多种,例如,同一个医院不同时期使用的检查仪器、试剂、方法和标准可能不同,检查不同病人的实验员的水平可能不同,等等。当数据涉及多个医院时,质量不一致的可能性会更大。虽然质量的不一致性会引起偏倚,但是不同比较组测量的不一致性会引起更大的偏倚。比如,医疗机构对不同病人的检查和收集的信息经常是不同的,检查的准确度也不同,这样,在进行病例对照研究时,可能会因对照病例中缺失重要暴露信息,或是在队列数据中对非暴露组的检验检查不足造成结局信息的缺陷,从而引起偏倚。
另外,随访时间不足也可能造成测量误差。主要原因是观察时间不足,应该出现的结局还没有出现,这样就可能得出没有作用的错误结论。比如,在一个抗高血压药物的干预研究里,如果是研究药物对血压的作用,随访半年时间足矣,若是研究预防心肌梗塞的作用,则至少需要若干年或更长的观察时间。
(三)评估数据中的混杂偏倚
在常规数据里,即使是评估疗效,由于治疗的病人和对照的病人不是随机分配形成的,因此本质上属于观察性研究,需要控制混杂。因此,在利用常规资料研究疗效时,混杂是普遍的。由于利用常规资料的研究多属于探索性研究,哪些因素是可能的混杂因素可能不清楚,因此无法控制;即使混杂因素是已知的,更常见的问题是常规数据中缺乏重要的混杂因素的信息,导致最终无法控制重要的混杂因子;最后,即使收集了重要的混杂因子的数据,可能信息的质量不好,致使混杂的控制不彻底。
六、常规资料的利用
虽然常规数据有诸多的问题和缺陷,它们还是经常可以用来进行以下问题和领域的研究:
(1)诊断方法准确性的评估
(2)急性病住院病人的转归和预后
(3)围产期和新生儿很多问题的研究
(4)急诊室很多问题的研究
(5)罕见疾病的病因和转归研究
(6)疾病危险因素的初探
(7)药物毒副作用的研究
(8)某类病人特征的观察
(9)有关服务和用药方面的研究
特别指出这些方面的研究,主要是因为研究这些问题时,或者不需要长期随访(如急性病),或者随访是有保证的(如围产期和新生儿的问题),或者不需要随访(如诊断研究,用于药物副作用的病例对照研究),或者只需对临床病人的总结(如治疗的依从性)。
由于常规数据的局限性,常规数据分析的目的主要是为了发现新问题,提出新的研究假设,很少可以用来验证和确认研究假设。“用于提出研究假设”就是说不适于研究已经存在较高质量证据的问题。比如,用常规数据再次证明吸烟和肺癌有关,证明高血压与脑卒中有关,没有贡献任何新知识,即使数据很多很方便,也没必要重复这样的研究。但是,在探索新的病因、副作用和老药新用等方面,由于是新的问题,往往是从快速的、粗略的探索开始的,这时常规数据的分析就具有一定的价值。尤其是碰到以下情况下,常规数据分析的结果应引起充分的注意:
(1)当发现两个因素关联极强时,如RR≥10,无论如何,二者间很可能存在一定的关系,因为偏倚和混杂很少会引起这么强的关联;
(2)发现很强的关联关系,如RR在5~10之间,且认为各种偏倚可能比较小;
(3)发现较强的关联关系,如RR在2~5之间,且数据的时间框架与研究问题需要的最佳研究设计一致或基本一致,控制了主要混杂因素,且认为其他偏倚可能比较小。
如果希望常规数据可以发挥更大的研究作用,可采取以下一些措施:
(1)如果利用部分常规数据,再依据研究问题收集少量的新的数据,就可以大大扩展常规数据的研究用途,尤其是在诊断准确性研究、病因和副作用的病例对照研究和罕见病的转归和预后的研究方面。
(2)扩大数据来源的地区范围。比如,一个科室或一个医院的病人可能代表性差,而且失访很多,但如果汇总一个大城市内所有医院的数据,将会大大增加代表性,减少失访的病例。电子病历将会使跨医院和跨区域临床数据的合并成为可能。
(3)同时利用多个不同性质的常规数据。例如,利用死亡作为观察的结局时,可以同时利用一个地区或全国的死亡登记资料。
(4)针对研究问题的需要,尽可能采用对病人重要的、容易准确测量的结局(如死亡、脑卒中),并进行随访。由于移动电话、电邮、互联网、网站、电子病历的出现,对重要结局的随访已经变得更加容易和可行了。
研究问题、数据来源及研究设计类型 | 参考文献 |
医学大数据最显著的特征是包含的人口数目的庞大和收集的变量数目的庞大,而且随时间推移不断更新和扩大。人口数目的庞大,可以大大降低甚至彻底消除抽样误差,使得我们可以发现十分微弱的关联关系;变量数目的庞大,使得我们可以研究和发现更多的可能的病因和健康决定因素,以及病因间的交互作用。
大数据的优势更在于变量数目的庞大。比如,一个需要100万人才能发现的微弱的病因,作用必然极小,很容易受偏倚的影响,而且即使完全消除该病因,对预防和控制疾病的意义也很小。相反,新的变量信息使得更容易发现新的病因,带来新的预防契机,而且同时利用多种病因,也可以使疾病预测和控制更加准确和有效。
目前常规收集的电子医学信息也存在明显的问题,一是测量的准确性不一致,二是收集的变量范围的不一致。前者会对流行病学研究引入信息偏倚,后者则会造成选择性偏倚,是电子医学信息需要改善的方面,也是现阶段利用大数据进行研究应该特别引起注意的地方。
第五节 全文总结
本文以队列研究的数据分析为主线,重点阐述了流行病学数据统计分析的一般原理、概念、内容、原则、方法和步骤,而非统计学理论与公式演绎。流行病学数据包括来自流行病学专题研究的数据和常规收集的医学数据。数据分析需以研究目的为中心,根据研究的设计特征,确定变量的用途,分析的主要目的是估计结果指标的大小及其可信区间,其他目的包括控制混杂以及测量交互作用和剂量反应关系,主要分析方法有分层分析和多元回归分析。控制混杂部分是系列文章的亮点之一。本文还以Logistic回归分析为例,演示了如何利用回归方程进行流行病学数据的常规分析。流行病学专题研究数据分析的原理和方法同样可用于常规数据的分析。由于缺乏明确的研究目的、设计框架和偏倚控制措施,利用常规数据进行研究时首先需要分析数据的特征,据此构建有意义的研究问题,进而估计结果指标的大小。其难点不在数据分析本身,而在于对结果真实性的判断。除非发现极其明显的结果,常规数据多只能用于提出需进一步研究的假说。目前的医学大数据与常规数据类似,其主要优势更在于其变量种类的宽度,不在于其总人数的大小,更适用于提出新假说和医疗卫生服务需求和规划等方面的研究。(全文完)
原文出处:唐金陵. 第二十章: 流行病学研究数据统计分析概述. 见: 李立明 主编. 《流行病学》. 第一卷. 第三版. 北京: 人民卫生出版社: 2015: 369-397.
作者:唐金陵,广州市妇女儿童医疗中心临床研究总监、《英国医学杂志》高级临床研究编辑、香港中文大学流行病学荣休教授
编辑:唐惠、邬德华